DAgger algorithm
#模倣学習
#強化学習
https://gyazo.com/48b3fd234d5366fec45ccbae2bc3b9b3
状態:
$ s \in S
行動:
$ a \in A
方策:
$ \pi
$ \pi : S \rightarrow A
と定義
累積的にデータセットを増やしながら方策を学習していく感じ
誤差が少ないらしい